【论文笔记】韩家炜团队AutoPhrase：自动短语挖掘

您所在的位置：网站首页 › 英语短语on chair使用方法 › 【论文笔记】韩家炜团队AutoPhrase：自动短语挖掘

【论文笔记】韩家炜团队AutoPhrase：自动短语挖掘

2024-07-11 05:57:03| 来源: 网络整理| 查看: 265

说在前面

刚开始摸索知识图谱，于是对刚开始读的一些论文做了笔记，共享一下。笔记首次分享于公众号“专知”，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务。有喜欢的朋友微信搜索“专知"。【导读】作为文本分析中的基础任务，短语挖掘旨在从文本语料库中获取质量短语，并应用在信息获取、信息检索、分类构建和主题模型中。现存的这些方法大多依赖于复杂的语义分析器，在一些新领域的语料库中的效果似乎并不理想，而且还需要大量的人力。因此，在本文中提出一种新的模型AutoPhrase来自动挖掘任意语种的短语。

动机

理想的自动短语挖掘方法应该是独立于不同领域，并且只需要最少的人力或语言分析器。因此提出了AutoPhrase框架，更深层次的避免了人工标注，并提高了性能。

创新点提出了POS-Guided短语分割：提高了词性标记的性能；本文提出新的自动短语挖掘框架AutoPhrase：独立于领域，只需要很少的人力或语言分析；提出了一种鲁棒的、仅为正的远程短语质量估计训练方法，以最小化人工工作量。两种新技术 Robust Positive-Only Distant Training

利用已有的知识库做远程监督训练，如维基百科，其中的高质量短语免费且数量多，远程训练过程中，使用这些词可以避免手工标注。

具体做法：

从通用知识库中的构建正样本从给定的知识库中的获取负样本训练大量基本分类器将分类器的预测聚合起来 POS-Guided短语分割

利用词性信息来增加抽取的准确性。语言处理器应该权衡准确率和领域独立能力。

对于领域独立能力，如果没有语言知识，准确率就会受限对于准确性，依赖复杂的、训练好的语言分析器，就会降低领域独立能力

解决方法：将预先训练好的词性标记加入到文档集，以提高性能。

Preliminaries

有效识别质量短语对于处理大规模文本数据来说十分重要。与提取关键短语相反，它远超单个文档的范围。使用文本检索算法通常会过滤一些词并将候选词限制为名词短语。使用预定义的词性规则，可以将名词短语标识为带有POS标签的候选单词。

本篇论文的目的是想实现从文件集中自动挖掘短语来获取质量短语，而不需要消耗人力。对于这个任务，输入为语料库（特定语言和特定领域的文本单词序列）和知识库，输出为一个按质量递减排列的短语列表。

质量短语被定义为一个单词序列成为一个完整语义单词的概率，满足以下条件：

流行度：在给定的文档集中，质量短语出现的频率应该要足够高一致性：由于偶然，质量短语中的tokens发生的概率要高于预期信息性：如果一个短语表达了一个特定的话题和概念，那这个短语就是信息化的完整度：长频繁短语及其子序列均满足上述3个条件。当一个短语在特定的文档上下文中解释为一个完整的语义单元时，就被认为是完整的。

AutoPhrase会根据正负池对质量短语进行两次评估，分别是在短语分割的前和后。也就是说，POS-Guided短语分割需要一组初始的质量短语分数，预先根据原始频率估计分数，然后一旦特征值被纠正，就要重新估计分数。

只有满足上述要求的短语才能被认为是质量短语。

在这里插入图片描述

AutoPhrase的第一部分（上图中的左部分）候选短语集合包含所有超过最小阈值的n-grams。这里的阈值指的是通过字符串匹配计算出的n-grams的原始频率。在实际中，设置短语长度的阈值n

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

【论文笔记】韩家炜团队AutoPhrase：自动短语挖掘

【论文笔记】韩家炜团队AutoPhrase：自动短语挖掘

今日新闻

点击排行

推荐新闻

图片新闻

专题文章